Генераторите на AI изображения се обучават на явни снимки на деца, показва нов доклад
В ново изследване Станфордската интернет обсерватория откри повече от 3200 изображения на хипотетично полово малтретиране на деца в гигантската AI база данни LAION.
Скрити в основата на известните генератори на изображения с изкуствен интелект (AI) са хиляди изображения на полово малтретиране на деца, съгласно което упорства фирмите да подхващат дейности за премахване на нездравословен минус в технологията, която са построили.
Същите тези изображения улесниха системите с изкуствен интелект да основават реалистични и ясни изображения на подправени деца, както и да трансформират фотоси в обществените медии на изцяло облечени същински младежи в голи, за огромна паника на целия свят.
Доскоро откривателите на битката със злоупотребите смятаха, че единственият метод, по който някои непроверени AI принадлежности основават злоупотребяващи изображения на деца, е като всъщност комбинират това, което са научили от две обособени групи онлайн изображения – порнография за възрастни и доброкачествени фотоси деца.
Възходът на китайските „ призрачни ботове “: Този татко се обърна към AI, с цел да „ съживи цифрово “ мъртвия си наследник
Но Станфордската интернет обсерватория откри повече от 3200 изображения на хипотетично полово принуждение над деца в гигантския AI база данни LAION, показател на онлайн изображения и надписи, който се употребява за образование на водещи основатели на изображения с изкуствен интелект, като да вземем за пример Stable Diffusion.
Групата за наблюдаване, основана в Станфордския университет, работи с Канадския център за протекция на детето и други благотворителни организации за битка със злоупотребите, с цел да разпознава противозаконния материал и да рапортува на правоприлагащите органи истинските връзки към фотоси.
Отговорът беше неотложен. В навечерието на публикуването в сряда на отчета на Станфордската интернет обсерватория LAION сподели на Associated Press, че краткотрайно отстранява своите набори от данни. изказване, че „ има политика на нулева приемливост към нелегално наличие и с огромна нерешителност сме свалили наборите от данни LAION, с цел да подсигуряваме, че са безвредни, преди да ги публикуваме наново “.
Собственикът на ChatGPT OpenAI се оправя с новините издателите да употребяват наличие за образование на своя AI
„ Не можем да върнем това назад “
Докато изображенията съставляват единствено дребна част от показателя на LAION от към 5,8 милиарда изображения, групата от Станфорд споделя, че това евентуално въздейства върху способността на инструментите за изкуствен интелект да генерират нездравословни резултати и ускорява предходната корист с действителни жертви, които се появяват неведнъж.
Проблемът не е елементарен за премахване и се връща към доста генеративни AI планове са „ дейно изстреляни на пазара “ и са необятно налични, тъй като региона е толкоз конкурентна, сподели основният технолог на Станфордската интернет обсерватория Дейвид Тийл, който е създател на отчета.
„ Вземайки цялостен интернет изчерпването и основаването на този набор от данни за образование на модели е нещо, което трябваше да бъде лимитирано до изследователска интервенция, в случай че не друго, и не е нещо, което трябваше да бъде без доста по-строго внимание “, сподели Тийл в изявление.
Виден консуматор на LAION, който оказа помощ за оформянето на развиването на набора от данни, е основаната в Лондон започваща компания Stability AI, производител на моделите за текст към изображение Stable Diffusion.
Новите версии на Stable Diffusion направиха доста по-трудно основават нездравословно наличие, само че една по-стара версия, въведена предходната година – която Stability AI споделя, че не е пуснала – към момента е включена в други приложения и принадлежности и остава „ най-популярният модел за генериране на експлицитни изображения “, съгласно отчета на Станфорд.
„ Не можем да върнем това назад. Този модел е в ръцете на доста хора на техните местни машини “, сподели Лойд Ричардсън, шеф на осведомителните технологии в Канадския център за протекция на детето, който ръководи канадската гореща линия за докладване на онлайн полова употреба.
Stability AI в сряда съобщи, че хоства единствено филтрирани версии на Stable Diffusion и че „ откогато пое извънредната разработка на Stable Diffusion, Stability AI предприе самодейни стъпки за понижаване на риска от корист “.
„ Тези филтри отстраняват рисковите наличие от постигане до моделите ", се споделя в квалифицирано изказване на компанията.
" Като премахнем това наличие, преди въобще да доближи до модела, можем да помогнем да предотвратим генерирането на рисково наличие от модела ".
LAION беше плод на въображението на немски откривател и преподавател Кристоф Шуман, който сподели пред АП по-рано тази година, че част от повода да направи такава голяма образна база данни обществено налична е да се подсигурява, че бъдещето на развиването на ИИ е t се управлява от шепа мощни компании.
„ Ще бъде доста по-безопасно и доста по-справедливо, в случай че можем да го демократизираме, тъй че цялата изследователска общественост и цялата необятна общност да могат да се възползват от него “, сподели той.
Голяма част от данните на LAION идват от различен източник, Common Crawl, вместилище на данни, които се търсят непрекъснато от отворения интернет, само че изпълнителният шеф на Common Crawl, Рич Скрента, сподели, че е „ служба на “ LAION да сканира и филтрира нужното, преди да го употребява.
LAION сподели тази седмица, че е създал „ строги филтри “ за разкриване и унищожаване на нелегално наличие, преди да пусне своите набори от данни и към момента работи за възстановяване на тези филтри. Докладът на Станфорд признава, че разработчиците на LAION са създали някои опити да филтрират категорично наличие за „ малолетни “, само че може би щяха да свършат по-добра работа, в случай че се съветваха по-рано с специалисти по сигурност на децата.
Много генератори на текст към изображение са получени в по някакъв метод от базата данни LAION, макар че не постоянно е ясно кои. OpenAI, производител на DALL-E и ChatGPT, сподели, че не употребява LAION и е прецизирал своите модели, с цел да отхвърля поръчки за полово наличие, включващо малолетни.
Гугъл построи своя модел Imagen от текст към изображение въз основа на набор от данни LAION, само че реши да не го прави обществен през 2022 година, откакто „ разкри необятен набор от неуместно наличие, в това число нецензурен изображения, расистки обиди и нездравословни обществени стандарти “.
Защита на поверителността на децата онлайн Действайте
Опитът да се изчистят данните със задна дата е сложен, тъй че Станфордската интернет обсерватория приканва за по-драстични ограничения.
Едният е за всеки, който е построил комплекти за образование от LAION‐5B – кръстен на повече от 5 милиарда двойки изображение-текст, които съдържа – да ги „ изтрие или да работи с медиатори за разчистване на материала “.
Друго е дейно да накарате по-стара версия на Stable Diffusion да изчезне от всички, с изключение на от най-тъмните ъгли на Интернет.
„ Легитимните платформи могат да спрат да оферират нейни версии за евакуиране “, изключително в случай че те постоянно се употребяват за генериране на злоупотребяващи изображения и нямат защитни ограничения за тяхното блокиране, сподели Тийл.
Като образец Тийл уточни CivitAI, платформа, която е желана от хора, създаващи порнография, генерирана от AI, само че която той липсват ограничения за сигурност, с цел да се опълчи на правенето на изображения на деца. Докладът също по този начин приканва компанията за изкуствен интелект Hugging Face, която популяризира данните за образование на модели, да приложи по-добри способи за докладване и унищожаване на връзки към обидни материали.
Hugging Face сподели, че постоянно работи с регулаторите и сигурността на децата групи за идентифициране и унищожаване на обидни материали. CivitAI не върна претенции за мнения, изпратени до неговата уеб страница.
Докладът на Станфорд също слага под въпрос дали всевъзможни фотоси на деца – даже и най-доброкачествените – би трябвало да се вкарват в системите с изкуствен интелект, без да са във федералната онлайн дискретност на децата Закон за отбрана.
Ребека Портноф, шеф на науката за данните в организацията за битка със половото малтретиране на деца Thorn, сподели, че нейната организация е провела изследване, което демонстрира, че разпространяването на изображения, генерирани от AI измежду насилниците, е малко, само че нараства поредно.
Разработчиците могат да смекчат тези вреди, като се уверят, че наборите от данни, които употребяват за създаване на AI модели, не съдържат злоупотреби.
Портноф сподели, че има и благоприятни условия за намаляване на нездравословните използва надолу по линията, откакто моделите към този момент са в обращение.
Технологичните компании и групите за сигурност на децата понастоящем присвояват „ хеш “ на видеоклипове и изображения - неповторими цифрови подписи - за следене и унищожаване на материали за принуждение над деца. Според Портноф същата идея може да се приложи към AI модели, с които се злоупотребява.
„ В момента това не се случва “, сподели тя. „ Но това е нещо, което съгласно мен може и би трябвало да се направи “.